本文考虑了$ k $ actions和$ d $ outcomes的部分监测问题,并提供了第一个最佳世界世界算法,其遗憾是在随机制度中的多层次,在随机状态下,在对抗性中近乎看法。政权。更具体地说,我们证明对于非分类本地可观察的游戏,随机制度中的遗憾是由$ o(k^3 m^2 \ log(t)\ log(k _ {\ pi} t) / \ delta _ {\ mathrm {\ min}})$,在$ o(k^{2/3} m \ sqrt {t \ log(t)\ log k _ {\ log k _ {\ pi}}})$中,在对抗状态下$ t $是回合的数量,$ m $是每个动作不同观察值的最大数量,$ \ delta _ {\ min} $是最小的最佳差距,$ k _ {\ pi} $是帕累托的最佳数量动作。此外,我们表明,对于非分类全球可观察的游戏,随机制度中的遗憾是由$ o(\ max \ {c _ {c _ {\ Mathcal {g}}}}^2 / k,\,c _ { }}} \} \ log(t)\ log(k _ {\ pi} t) / \ delta _ {\ min}^2)$,在$ o(\ max \ {c _ { }}}^2/k,\,c _ {\ mathcal {g}}} \} \ log(t)\ log(k _ {\ pi} t)))^{1/3} t} t^{2/3}) $,其中$ c _ {\ Mathcal {g}} $是游戏依赖的常数。我们的算法基于以下规范化领导者框架,该框架考虑了部分监视问题的性质,灵感来自在线学习领域中使用反馈图的算法。
translated by 谷歌翻译
本文考虑了多臂强盗(MAB)问题,并提供了一种新的最佳世界(BOBW)算法,该算法在随机和对抗性设置中几乎最佳地工作。在随机设置中,某些现有的BOBW算法获得了$ o的紧密依赖性遗憾界限(\ sum_ {i:\ delta_i> 0} \ frac {\ log t} {\ log t} {\ delta_i} {\ delta_i})手臂$ i $和时间范围$ t $。如Audibert等。 [2007]但是,在具有低变化的臂的随机环境中,可以改善性能。实际上,他们提供了一种随机mab算法,具有$ o的差距依赖性遗憾界限t)损失方差$ \ sigma_i^2 $ a臂$ i $。在本文中,我们提出了具有差距依赖性界限的第一个BOBW算法,表明即使在可能的对抗环境中,这些方差信息也可以使用。此外,我们的间隙变量依赖性结合中的领先常数因子仅是(几乎)下界值的两倍。此外,所提出的算法在对抗环境中享有多个与数据有关的遗憾界限,并且在具有对抗性腐败的随机设置中很好地工作。所提出的算法基于以下规范化的领导方法,并采用了自适应学习率,取决于损失的经验预测误差,这导致了差距变化依赖性的遗憾界限,反映了武器的方差。
translated by 谷歌翻译
我们考虑固定预算的最佳手臂识别问题,目标是找到具有固定数量样本的最大均值的手臂。众所周知,错误识别最好的手臂的概率对巡回赛的数量成倍小。但是,已经讨论了有关此值的速率(指数)的有限特征。在本文中,我们表征了由于所有可能的参数的全局优化而导致的最佳速率。我们介绍了两个费率,$ r^{\ mathrm {go}} $和$ r^{\ mathrm {go}} _ {\ infty} $,对应于错误识别概率的下限,每种范围都与A建议的算法。费率$ r^{\ mathrm {go}} $与$ r^{\ mathrm {go}} $ - 跟踪相关联,可以通过神经网络有效地实现,并显示出胜过现有的算法。但是,此速率要求可以实现非平凡的条件。为了解决这个问题,我们介绍了第二个速率$ r^{\ mathrm {go}} _ \ infty $。我们表明,通过引入一种称为延迟最佳跟踪(DOT)的概念算法,确实可以实现此速率。
translated by 谷歌翻译
This study considers online learning with general directed feedback graphs. For this problem, we present best-of-both-worlds algorithms that achieve nearly tight regret bounds for adversarial environments as well as poly-logarithmic regret bounds for stochastic environments. As Alon et al. [2015] have shown, tight regret bounds depend on the structure of the feedback graph: strongly observable graphs yield minimax regret of $\tilde{\Theta}( \alpha^{1/2} T^{1/2} )$, while weakly observable graphs induce minimax regret of $\tilde{\Theta}( \delta^{1/3} T^{2/3} )$, where $\alpha$ and $\delta$, respectively, represent the independence number of the graph and the domination number of a certain portion of the graph. Our proposed algorithm for strongly observable graphs has a regret bound of $\tilde{O}( \alpha^{1/2} T^{1/2} ) $ for adversarial environments, as well as of $ {O} ( \frac{\alpha (\ln T)^3 }{\Delta_{\min}} ) $ for stochastic environments, where $\Delta_{\min}$ expresses the minimum suboptimality gap. This result resolves an open question raised by Erez and Koren [2021]. We also provide an algorithm for weakly observable graphs that achieves a regret bound of $\tilde{O}( \delta^{1/3}T^{2/3} )$ for adversarial environments and poly-logarithmic regret for stochastic environments. The proposed algorithms are based on the follow-the-regularized-leader approach combined with newly designed update rules for learning rates.
translated by 谷歌翻译
从2D前看声纳中检索声学图像中缺少的维度信息是水下机器人技术领域的一个众所周知的问题。有一些尝试从单个图像中检索3D信息的作品,该信息允许机器人通过飞行运动生成3D地图。但是,由于独特的图像配方原理,估计来自单个图像的3D信息面临严重的歧义问题。多视图立体声的经典方法可以避免歧义问题,但可能需要大量的观点来生成准确的模型。在这项工作中,我们提出了一种基于学习的新型多视角立体方法来估计3D信息。为了更好地利用来自多个帧的信息,提出了一种高程平面扫平方法来生成深度 - 齐路的成本量。正则化后的体积可以视为目标的概率体积表示。我们使用伪前深度来代表3D信息,而不是在高程角度上进行回归,而是可以避免声学成像中的2d-3d问题。只有两个或三个图像可以生成高准确的结果。生成合成数据集以模拟各种水下目标。我们还在大型水箱中构建了第一个具有准确地面真相的真实数据集。实验结果证明了与其他最新方法相比,我们方法的优势。
translated by 谷歌翻译
步态计划是一种通常应用于地面机器人的过程,例如四足机器人; Tilt-Rotor是一种新型的四型四个输入,不是其中之一。在控制倾斜 - 依赖反馈线性化的倾斜旋转时,预计倾斜角度(输入)将过度改变,这在应用程序中可能不会预期。为了帮助抑制倾斜角度的密集变化,在反馈线性化之前,将步态计划程序引入倾斜度。用户提前时间指定倾斜角度,而不是由控制规则给出。但是,基于这种情况,反馈线性化中的去耦矩阵对于某些态度,滚动角度和螺距角的组合可能是单数的。它阻碍了反馈线性化的进一步应用。因此,建立了两个彩色图定理,以最大程度地提高可接受的态度区域,在该区域中,滚动和音高的组合将产生可逆的去耦矩阵。然而,该定理过度限制了倾斜角度的选择,这可以排除一些可行的健壮步态。本文给出了广义的两个彩色图定理。所有健壮的步态都可以根据这种广义定理找到。分析了满足该广义的两个彩色图定理(违反两个彩色图定理)的三个步态的鲁棒性。结果表明,概括的两个颜色图定理完成了对倾斜旋转的稳健步态的搜索。
translated by 谷歌翻译
Rylls Tilt-Rotor是无人机,有八个输入;可以根据控制规则指定推力的四个大小以及推力的四个倾斜角。尽管取得了模拟的成功,但常规反馈线性化证明了投入的过度变化,同时适用于稳定Rylls倾斜旋转。因此,我们以前的研究将额外的步态计划提交了额外的程序,以抑制倾斜角度的意外变化。伴随两个颜色地图定理,倾斜角度是坚定而连续的。设计的步态对态度的改变是可靠的。但是,在进一步应用跟踪模拟测试之前,这不是一个完整的理论。本文进一步讨论了两个颜色图定理之后的一些步态,并模拟了倾斜旋转的跟踪问题。均匀的圆形移动参考设计为由配备了设计健壮步态和反馈线性化控制器的倾斜旋转器跟踪。满足两个彩色图定理的步态显示了鲁棒性。模拟的结果显示了跟踪倾斜旋转的成功。
translated by 谷歌翻译
光的轨道角动量(OAM)是一种无限维度的光自由度,在经典和量子光学元件中都有多种应用。但是,为了充分利用OAM状态的潜力,需要在实验条件下表征生成状态的可靠检测平台。在这里,我们提出了一种方法,可以通过测量其产生的空间强度分布来重建输入OAM状态。为了消除Laguerre-Gauss模式的固有对称性引起的问题,我们每个状态仅在两个不同的基础上投射它,这是如何从收集的数据中唯一恢复输入状态的。我们的方法是基于通过主成分分析和线性回归降低维度的合并应用,因此在培训和测试阶段的计算成本较低。我们在真实的光子设置中展示了我们的方法,通过量子行动动力学生成最新的OAM状态。演示方法的高性能和多功能性使其成为表征量子信息协议中高维状态的理想工具。
translated by 谷歌翻译
反馈线性化是一种用于控制倾斜转子的流行控制方法。尽管该方法带来了利用系统过度致动的性能的机会,但典型的结果表明倾斜角度的大变化,这在实际情况下不期望。为了解决这个问题,我们介绍了新颖的概念UAV步态来限制倾斜角度。步态计划问题最初是为了解决四肢(四足腿)机器人的控制问题。在移植这种方法的同时,伴随着反馈线性化方法,在倾斜转子可能导致解耦矩阵中的众所周知的非可逆问题。在这项研究中,我们探讨了倾斜转子的可逆步态,并应用反馈线性化以稳定姿态和高度。结果在Simulink,Matlab中验证。
translated by 谷歌翻译
内窥镜图像通常包含几个伪像。伪影显着影响图像分析导致计算机辅助诊断。卷积神经网络(CNNS),一种深度学习,可以去除这样的伪像。已经提出了各种架构,用于CNNS,并且伪像去除的准确性根据架构的选择而变化。因此,需要根据所选择的架构确定伪影删除精度。在这项研究中,我们专注于内窥镜手术器械作为伪影,并使用七种不同的CNN架构确定和讨论伪影去除精度。
translated by 谷歌翻译